• • 下一篇
邓辅秦1,官桧锋1,谭朝恩2,付兰慧2,王宏民3,林天麟4,张建民3
摘要: 动态环境下的多机器人路径规划在多机器人领域有着较大的实用价值和学术价值。在动态环境下,为了降低多机器人路径规划的阻塞率,在深度强化学习算法Actor-Critic框架下,本文设计出一种基于请求与应答通信机制和局部注意力机制的分布式深度强化学习路径规划方法(DCAMAPF)。在Actor网络,基于请求与应答通信机制,每个机器人请求视野内的其他机器人的局部观测信息和动作信息,进而规划出协同的动作策略。在Critic网络,每个机器人基于局部注意力机制将注意力权重动态地分配到在视野内成功应答的其他机器人局部观测和动作信息上。与传统动态路径规划方法D* Lite、最新的分布式强化学习方法Mapper和最新的集中式强化学习方法AB-Mapper相比,DCAMAPF在离散初始化环境,阻塞率差值均约缩小了6.91%、4.97%、3.56%;在集中初始化环境下能更高效地避免发生阻塞,阻塞率差值均约缩小了15.86%、11.71%、5.54%,并降低占用的计算缓存。